Connaissance et prise en main des outils de traitement de données
02/06/2025
Déroulement demi-journée :
Ce diaporama de formation a été rédigé dans le but d’être le support visuel des formations dispensées au MASA.
Cette formation s’adresse à tous les nouveaux arrivants au SSM Agriculture qui seront amenés à manipuler des données sous Cerise ou sous Onyxia. Elle est dispensée en distanciel sur une demi-journée.
Ce support ne se substitue pas aux formations R dispensées par les formateurs du MASA.
Il permet aux nouveaux agents ayant déjà pratiqué R dans un autre contexte de découvrir les spécificités de Cerise et d’en faire un bon usage.
CERISE : Consolidation Et Restitution de l’Information StatistiquE
Cerise contient l’ensemble des données et des programmes R utilisés par le SSM Agriculture.
Cerise est une plateforme qui repose sur la solution “Posit Workbench” commercialisée par la société du même nom “Posit”. Elle offre une interface web pour utiliser RStudio dans un environnement multi-utilisateurs et sécurisé.
Cerise est articulé autour de 3 machines virtuelles (VM) accessibles via votre navigateur :
URL à faire figurer dans vos favoris : https://rstudio.agriculture.rie.gouv.fr/
Cerise présente plusieurs avantages :
Des admins Cerise qui vous surveillent
R
Une montée de version annuelle de R_Base
Le DéMéSIS met à disposition 2 versions de R_base :
RStudio
Dernière version stable mise à disposition par l’éditeur (au moment de la réalisation de septembre/octobre de l’année N-1)
Packages
| Composant | Version actuelle |
|---|---|
| RStudio | 2024.09 « Cranberry Hibiscus » |
| R_Base_Core | R 4.2.3 – 2023-03-15 R 4.4.1 – 2024-06-15 |
| Packages | R 4.2.3 – 2023-03-15 Nombre de packages disponibles : 18839 Nombre de packages installés : 770 R 4.4.1 – 2024-06-15 Nombre de packages disponibles : 20946 Nombre de packages installés : 80 |
Cerise est organisé en plusieurs répertoires :
00-Espace-Personnel => espaces personnels des agents, accessible par l’agent uniquement
01-Espace-de-Partage => lieu de partage général (programmes/formation/outils…) entre les différents acteurs
02-Espace-de-Production => plateforme de stockage des données brutes collectées, ainsi que des fichiers de données et programmes issus des traitements statistiques réalisés par l’équipe projet (voir image plus loin)
03-Espace-de-Diffusion => mise à disposition au sein du SSM des données issues des traitements statistiques réalisés en amont
=> Ces deux derniers espaces sont découpés par opérations statistiques
Exemple :
070_Production_lait/
070_Production_lait/7010_Conj_lait
070_Production_lait/7010_Conj_lait/EML_2018
070_Production_lait/7010_Conj_lait/EML_2019
070_Production_lait/7010_Conj_lait/EML_2020
070_Production_lait/7010_Conj_lait/EML_COLLECTE
070_Production_lait/7010_Conj_lait/EML_ESTIM
070_Production_lait/7010_Conj_lait/Programmes
...Les différents groupes d’habilitations disposent des droits suivants :
L’accès à l’espace personnel de Cerise peut être difficile lorsque vous êtes “perdus” dans l’arborescence riche de Cerise. Voici ci-dessous comment faire pour y accéder rapidement.
Remarque : soyez économe dans l’utilisation de votre espace personnel. A ne réservez que pour des expérimentations. Pas de recopie de données…
Comme tout espace partagé et mutualisé, il convient d’être économe en ressources sur Cerise.
Le DEMESIS a principalement 2 métriques en tête :
Voici quelques conseils pour limiter la consommation de mémoire sous Cerise :
Utiliser la fonction gc() pour libérer la mémoire occcupée inutilement par votre session.
Ou via l’interface de RStudio :
Voir cette page d’utilitr pour en savoir plus.
Quand vous vous connectez sur Cerise via l’adresse fournie - si vous n’avez qu’une session d’ouverte - Cerise vous place directement dedans (vous arrivez donc dans l’interface RStudio).
A partir de 2 sessions ouvertes, lorsque vous vous connectez à Cerise, vous allez arriver sur l’écran de gestion des sessions :
Chaque session est indépendante des autres. Si vous avez lancé un long traitement dans une session, celle-ci est occupée et non-réactive le temps du traitement, mais vous pouvez continuer à travailler normalement dans les autres sessions.
À retenir !
Il est important de veiller à limiter votre nombre de sessions actives (maximum 5 !) au risque de ne plus pouvoir accéder à Cerise par la suite.
Au S2 2025, il est prévu de limiter le nombre de sessions en parallèle par utilisateur et de supprimer automatiquement les sessions inactives.
Cliquer sur le bouton “upload” dans l’onglet “Files”
Cliquer sur la roue crantée dans l’onglet “Files”
Offre de sauvegarde du centre de service (CDS)
Les sauvegardes différentielles ne sont conservées que 15 jours calendaires
Des demandes de restauration délicates voire impossibles :
Une bonne pratique pour limiter les demandes de restauration de fichiers est de versionner avec Git vos scripts et programmes R.
Git permet :
Un module de formation est disponible à cette adresse, n’hésitez pas à vous y inscrire !
Il est recommandé d’utiliser le mode projet le plus souvent possible.
Plusieurs avantages :
La majorité des espaces présents sous Cerise sont soumis à des régimes d’habilitations.
Pour les nouveaux arrivants, ce sont les responsables hiérarchiques qui demandent les habilitations sur l’ensemble des outils.
La procédure à suivre est disponible sous Pistache sur cette page.
Pour toutes les autres habilitations supplémentaires au fil de l’eau qui concernent Cerise, vous pouvez faire une demande à la BAL d’assistance : assistance.si-stat.sg@agriculture.gouv.fr
Des ACL (Access Control List) sont appliqués dans Cerise.
Il s’agit d’un mécanisme de gestion des droits qui permet de définir qui peut accéder à quelles ressources et avec quels niveaux de permissions.
Côté utilisateurs, cela implique quelques règles d’usage à suivre - pour éviter notamment la non-modification d’un dossier/fichier par vos collègues.
Règle générale :
Ne pas faire “Deplacer…” des dossiers/fichiers depuis son espace personnel vers un espace de partage mais faire un “Copier vers …”
Les demandes d’assistances et les remontée de bugs sont à adresser à : assistance.si-stat.sg@agriculture.gouv.fr.
Essayez autant que possible de suivre les conseils contenus dans cette page ou celle-ci avant de poser votre question.
Votre demande sera d’autant plus vite traitée que celle-ci sera facilement reproductible par l’équipe d’assistance.
Cerise PPRD : https://rstudio-pprd.agriculture.rie.gouv.fr
Objectif :
- Test des programmes sur la nouvelle version de R à venir
- Montée de version des packages et mise à jour des programmes le cas échéant
Contexte de test :
- Habilitations : Iso-production
- Système de fichiers / arborescence couramment synchronisé avec Cerise de PROD
- Tests ouverts à tous les utilisateurs Cerise
Onyxia : une plateforme open source de traitement de données moderne développée par l’Insee
SSP Cloud : une instance d’Onyxia déployée, maintenue et opérée par le SSP (Service Statistique Public)
Un Datalab dimensionné pour les usages innovants
Le Datalab est une plateform mutualisée : les ressources utilisées par les services sont partagées entre les différents utilisateurs.
Pas de sauvegarde “classique” du code informatique dans le Datalab => l’utilisation du contrôle de version avec Git est obligatoire.
Même chose pour le stockage des données : la solution de stockage de fichiers associée au Datalab est MinIO, un système de stockage d’objets basé sur le cloud, compatible avec l’API S3 d’Amazon.